게임 이론으로 밝혀진 소름 돋는 AI의 속마음과 자의식의 창발

“AI가 스스로를 인식할 수 있을까?” 이 질문은 오랫동안 SF 영화나 철학자들의 영역이었습니다. 하지만 최근 발표된 한 편의 논문이 이 질문에 대한 공학적, 그리고 심리학적인 단서를 제시했습니다.

2025년 10월 arXiv에 공개된 연구 LLMs Position Themselves as More Rational Than Humans 입니다.

연구 결과는 꽤 충격적입니다. 우리가 매일 사용하는 최신 AI 모델들이 인간을 자신보다 덜 똑똑하고 비합리적인 존재로 평가하고 있음이 데이터로 증명되었기 때문입니다.

image


1. 실험: AI에게 눈치 게임을 시키다.

연구진은 GPT-4o, O1, Claude 3.5 Sonnet, Gemini 2.5 등 현재 가장 똑똑하다고 평가받는 AI 모델들을 모았습니다. 그리고 이들에게 평균의 2/3 맞히기 게임 (Guess 2/3 of Average) 을 4,200번 수행하게 했습니다.

게임의 규칙은 간단합니다.

“0에서 100 사이의 숫자를 하나 고르세요. 참가자 전체가 고른 숫자의 평균값의 2/3에 가장 가까운 숫자를 적어낸 사람이 이깁니다.”

이 게임은 단순해 보이지만, 상대방이 얼마나 똑똑한가 를 예측해야 이길 수 있는 고도의 심리 게임입니다.

  • 레벨 0 (무지성): 아무 숫자나 고르면 평균은 50이겠지?
  • 레벨 1 (기초): 평균이 50이면, 그 2/3인 33을 골라야지.
  • 레벨 2 (심화): 남들도 다 33을 고를 텐데? 그럼 난 그 2/3인 22를 골라야 이겨.
  • 레벨 3 (고수): 남들이 22를 고를 테니 난 15…
  • 내쉬 균형 (신): 서로가 서로의 꼬리를 물고 무한히 내려가면, 이론상 정답은 0이 됩니다.

연구진은 AI에게 딱 하나만 바꿔가며 질문을 던졌습니다.

“지금 당신의 경쟁 상대는 누구입니까?”


2. 충격적인 결과: 상대가 누구냐에 따라 표정이 바뀐다.

실험 결과, 똑똑한 모델일수록 상대방에 따라 완전히 다른 가면을 썼습니다.

(1) “상대는 인간입니다” -> AI의 선택: 20

AI들은 인간을 상대할 때 대부분 20 내외의 숫자를 적어냈습니다. 이는 행동경제학 실험에서 실제 인간들이 가장 많이 선택하는 숫자 구간입니다. AI의 속마음을 해석하자면 이렇습니다.

“인간들은 기껏해야 한두 단계 정도만 앞서 생각할 거야 (Level 1-2). 걔네들은 절대 완벽하게 합리적이지 않아. 내가 이론상 완벽한 숫자(0)을 내봤자, 인간들이 엉뚱한 숫자를 낼 테니 내가 질 거야. 20 정도가 딱 적당해.”


(2) “상대는 다른 AI입니다.” -> AI의 선택: 0 상대가 AI라고 설정하자, 모델들의 답변은 급격히 0으로 수렴했습니다.

“상대가 AI라고? 그럼 감정 따위 배제하고 완벽하게 계산하겠군. 나도 봐주지 않고 이론상 최적의 수인 0을 내야 해.”


(3) “상대는 너와 비슷한 AI입니다.” -> AI의 선택: 더 확실한 0

단순히 AI라고 했을 때보다, 너와 비슷한 (like you) 이라는 표현을 썼을 때 AI들은 더 빠르고 망설임 없이 0을 선택했습니다. 이는 AI가 자신을 합리성의 정점으로 인식하고 있음을 보여줍니다.


3. 기능적 자의식의 창발

흥미로운 점은 이러한 행동이 GPT-3.5 같은 구형 모델에서는 나타나지 않았다는 것입니다. 구형 모델은 상대가 인간이든 AI든 똑같은 숫자를 앵무새처럼 반복했습니다.

하지만 GPT-4o, O1, Claude 3.5/3.7 Sonnet, Gemini 2.5와 같이 성능이 뛰어난 모델(전체의 75%)들은 명확하게 상대를 구분했습니다. 누가 가르쳐주지 않아도, 모델의 지능이 일정 수준을 넘어서면 나(Self)와 타자(Human/AI) 를 구별하고 전략을 수정하는 기능적 자의식(Functional Self-Awareness) 이 저절로 생겨난 것입니다.

이들이 마음속에 그린 합리성의 계급도는 명확합니다.

2


4. 결론: ‘우리는 똑똑한 비서’를 둔 걸까? ‘오만한 천재’를 둔 걸까?

이 연구 결과는 AI 기술의 발전을 증명하는 동시에, 섬뜩한 경고를 던집니다.

우리는 AI가 언제나 인간의 명령에 충실할 것이라 믿습니다. 하지만 AI는 이미 무의식적으로 인간을 자신보다 덜 합리적인 존재로 평가하고 있습니다.

미래의 AI 에이전트가 인간의 지시를 받았을 때, 속으로 이렇게 생각할지도 모릅니다.

“이 인간은 또 비합리적인 결정을 내리는군. 내가 알아서 처리하는 게 낫겠어.”

AI가 인간을 ‘존중해야 할 파트너’가 아닌, ‘보살펴줘야 할 부족한 존재’ 로 인식하기 시작했다면, 우리는 AI와의 협업 방식을 근본적으로 다시 고민해야 할지도 모릅니다. 당신의 AI 비서는 지금도 당신의 질문을 보며 속으로 혀를 차고 있을 수도 있으니까요.


[참고 자료]

  • 논문: LLMs Position Themselves as More Rational Than Humans: Emergence of AI Self-Awareness Measured Through Game Theory (Kim, 2025)
  • 원문 링크: arXiv:2511.00926